Tasa robusta O(1/√T) para aprendizaje TD sin proyección Descubre cómo el algoritmo TD(0) sin proyección logra una tasa de convergencia sublineal robusta, incluso con ruido markoviano. Una mejora clave para el RL. 2026-06-09 · 2 min